智能论文笔记

Distributed Newton-Type Methods with Communication Compression and Bernoulli Aggregation

Rustem Islamov , Xun Qian , Slavomír Hanzely , Mher Safaryan , Peter Richtárik

分类：机器学习

2022-06-07

尽管计算高昂和沟通成本，牛顿型方法仍然是分布式培训的吸引人选择，因为它们对不良条件的凸问题进行了稳健性。在这项工作中，我们研究了通信压缩和曲率信息的聚合机制，以降低这些成本，同时保留理论上优越的局部收敛保证。我们证明了Richtarik等人最近开发的三点压缩机（3PC）类。 [2022]对于梯度交流也可以推广到Hessian通信。该结果开辟了各种各样的沟通策略，例如承包压缩}和懒惰的聚合，可用于压缩过高的成本曲率信息。此外，我们发现了几种新的3PC机制，例如自适应阈值和Bernoulli聚集，这些机制需要减少通信和偶尔的Hessian计算。此外，我们扩展和分析了双向通信压缩和部分设备参与设置的方法，以迎合联合学习中应用的实际考虑。对于我们的所有方法，我们得出了与局部无关的局部线性和/或超线性收敛速率。最后，通过对凸优化问题进行广泛的数值评估，我们说明我们的设计方案与使用二阶信息相比，与几个关键基线相比，我们的设计方案达到了最新的通信复杂性。

translated by 谷歌翻译

最近对SGD的理论理解的进步导致了最佳批量尺寸的公式，最小化有效数据通行证的数量，即迭代次数的批次大小的数量。然而，该公式具有实用的价值，因为它取决于在最佳评估的随机梯度方差的知识。在本文中，我们设计了一种实用的SGD方法，能够在整个迭代中自适应地学习最佳批量尺寸，以强烈凸起和平滑的功能。我们的方法可以证明，在我们的综合性和实际数据的实验中，易于展示了几乎最佳的行为;也就是说，它可以适用于最佳批次大小已知a-priori。此外，我们之前概括了我们之前在文献中未考虑的几种新批次策略的方法，包括适合分布式实施的采样。

translated by 谷歌翻译